Medidas de Dispersão e Precisão

Aula VII - Amplitude, Variância, Desvio-Padrão, CV e Erro Padrão

Luiz Diego Vidal Santos

Universidade Estadual de Feira de Santana (UEFS)

Medidas de Dispersão e Precisão

Objetivos da Aula

  1. Compreender e calcular Amplitude (Range), Variância (Variance), Desvio-Padrão (Standard Deviation) e Coeficiente de Variação (Coefficient of Variation)

  2. Diferenciar Dispersão de Precisão da Média via Erro Padrão (Standard Error)

  1. Aplicar os conceitos em um conjunto de dados geográfico (cidades, altitudes e temperaturas)

  2. Construir gráficos e interpretar resultados no contexto espacial

Observação: Termos em inglês entre parênteses para familiarização técnica.

Ambiente e Dados

library(tidyverse)
library(ggplot2)

Conjunto de dados da aula (Geografia)

dados <- data.frame(
  cidade = c('Feira de Santana', 'Salvador', 'Vitória da Conquista', 
             'Juazeiro', 'Itabuna'),
  altitude_m = c(234, 8, 923, 368, 110),
  temp_media_c = c(24.8, 26.3, 21.2, 27.1, 25.4)
)
dados

1) Amplitude (Range)

Amplitude

Definição: diferença entre o maior e o menor valor.

\[AT = x_{max} - x_{min}\]

Interpretação: mede o intervalo total dos dados, mas é sensível a outliers.

AT_alt <- max(dados$altitude_m) - min(dados$altitude_m)
AT_tmp <- max(dados$temp_media_c) - min(dados$temp_media_c)
AT_alt; AT_tmp

2) Média (Mean) - Apoio

Média

Definição: soma dos valores dividida pelo número de observações.

\[\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i\]

Usaremos a média para compor as próximas medidas.

media_alt <- mean(dados$altitude_m)
media_tmp <- mean(dados$temp_media_c)
media_alt; media_tmp

3) Variância e Desvio-Padrão

Variância e Desvio-Padrão

Variância amostral

\[s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}\]

Desvio-padrão amostral

\[s = \sqrt{s^2}\]

Interpretação:

  • A variância está em unidades ao quadrado
  • O desvio-padrão retorna à unidade original
  • Quantifica a dispersão média
var_alt <- var(dados$altitude_m)
sd_alt  <- sd(dados$altitude_m)
var_tmp <- var(dados$temp_media_c)
sd_tmp  <- sd(dados$temp_media_c)
c(var_alt = var_alt, sd_alt = sd_alt)
c(var_tmp = var_tmp, sd_tmp = sd_tmp)

4) Coeficiente de Variação (CV)

Coeficiente de Variação

Definição: dispersão relativa à média (em %).

\[CV = \frac{s}{\bar{x}} \times 100\%\]

Interpretação: útil para comparar variabilidade entre variáveis com unidades diferentes (ex: m vs. °C).

cv <- function(x, na.rm = TRUE) {
  if (na.rm) x <- x[!is.na(x)]
  (sd(x) / mean(x)) * 100
}

CV_alt <- cv(dados$altitude_m)
CV_tmp <- cv(dados$temp_media_c)
CV_alt; CV_tmp

5) Erro Padrão da Média (SE)

Erro Padrão

Definição: quantifica a precisão da estimativa da média amostral.

\[SE(\bar{x}) = \frac{s}{\sqrt{n}}\]

Diferença Fundamental

  • DP (SD) mede dispersão dos dados
  • SE mede precisão da média (tende a diminuir quando \(n\) aumenta)
se <- function(x, na.rm = TRUE) {
  if (na.rm) x <- x[!is.na(x)]
  sd(x) / sqrt(length(x))
}

SE_alt <- se(dados$altitude_m)
SE_tmp <- se(dados$temp_media_c)
SE_alt; SE_tmp

6) Intervalo de Confiança (IC 95%)

Intervalo de Confiança

Para amostras pequenas, utilize a distribuição t de Student:

\[IC = \bar{x} \pm t_{0{,}975,\, n-1} \cdot SE\]

n <- nrow(dados)
tcrit <- qt(0.975, df = n - 1)

IC95_alt <- c(
  media_alt - tcrit * SE_alt,
  media_alt + tcrit * SE_alt
)
IC95_tmp <- c(
  media_tmp - tcrit * SE_tmp,
  media_tmp + tcrit * SE_tmp
)
IC95_alt; IC95_tmp

7) Visualizações

Barras com Linha de Média (Altitude)

ggplot(dados, aes(x = cidade, y = altitude_m, fill = cidade)) +
  geom_bar(stat = 'identity') +
  geom_hline(yintercept = media_alt, linetype = 'dashed', color = 'red') +
  labs(title = 'Altitudes das Cidades (linha tracejada = média)',
       x = '', y = 'Altitude (m)') +
  theme_minimal() +
  theme(legend.position = 'none',
        axis.text.x = element_text(angle = 45, hjust = 1))

Histograma e Boxplot (Temperatura)

par(mfrow = c(1, 2))
hist(dados$temp_media_c, 
     main = 'Histograma: Temperatura (°C)', 
     xlab = 'Temperatura (°C)')
boxplot(dados$temp_media_c, 
        main = 'Boxplot: Temperatura (°C)', 
        horizontal = TRUE, 
        xlab = 'Temperatura (°C)')
par(mfrow = c(1, 1))

8) Resumo Integrado

Resumo e Interpretação

resumo <- tibble::tibble(
  Variavel = c('Altitude (m)', 'Temperatura (°C)'),
  Media = c(media_alt, media_tmp),
  Variancia = c(var_alt, var_tmp),
  DP = c(sd_alt, sd_tmp),
  CV_pct = c(CV_alt, CV_tmp),
  SE = c(SE_alt, SE_tmp)
)
resumo

Guia de Interpretação

  • Amplitude mostra o intervalo total; sensível a extremos
  • DP (SD) indica dispersão média na unidade original (m, °C)
  • CV permite comparar variabilidade relativa entre variáveis com unidades distintas
  • SE expressa a precisão da média: com mais cidades (maior \(n\)), o SE tende a reduzir
  • IC95% fornece um intervalo plausível para a média verdadeira

9) Extra: Erro Padrão para Proporção

Para \(\hat{p} = x/n\):

\[SE(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

x <- 20     # sucessos (ex: cidades com chuva > 1000 mm)
n <- 50     # total de cidades
p_hat <- x / n
SE_p <- sqrt(p_hat * (1 - p_hat) / n)
c(p_hat = p_hat, SE_p = SE_p)

Obrigado!

Luiz Diego Vidal Santos

Universidade Federal de Sergipe

diego@academico.ufs.br